进化树专题(四)| 进化模型选择的那些事儿
在文章投稿时,经常受到编辑直击灵魂的拷问:
“please explain how were amino-acid substitution models chosen for tree construction ?”
“What nucleotide substitution model was selected for the ML analyses ?”
………
今天,我们就是要把您从这样的苦楚中解脱出来,说说关于进化模型选择的那些事儿~
系统发育分析中,最大似然法(ML)和贝叶斯法(BI)是对替换模型非常敏感的两种算法。对于一些新手而言,经常使用默认参数而忽略了模型选择,从而导致建树结果不理想。文章投稿后,也经常为此返修,耗时耗力耗神。因此,建树模型的选择至关重要,我们开一个专题对此做简单说明,主要介绍2种软件:jModeltest是进行核苷酸替换模型的选择,输入的是比对好的核酸序列;ProtTest是进行氨基酸替换模型的选择,输入的是比对好的基因蛋白序列。
jModelTest 2.1.10(https://github.com/ddarriba/jmodeltest2) 是个跨平台的Java程序,通过内置的PhyML等程序计算模型及相关参数,操作简单。支持命令行形式和图形界面形式,依据个人喜好选择。
命令行操作示例:
参数说明 ---
-i | include models with a proportion invariable sites |
-f | include models with unequals base frecuencies |
-g | include models with rate variation among sites and number of categories |
AIC | 赤池信息标准,Akaike Information Criterion |
BIC | 贝叶斯信息标准,Bayesian Information Criterion |
AICc | Corrected Akaike Information Criterion |
DT | 决策理论,decision theory performance-based score |
-tr | 线程数,numberOfThreads |
-lnL | 似然比检验,negative log likelihod |
delta | AIC/BIC/AICc/DT difference |
运行结束后,在 jmodeltest.out 最后会对每个统计标准的最优模型做汇总:
AIC、BIC、AICc、DT的最优模型是GTR+I+G,后续建树时选用该模型即可。
图形化界面运行:
jModelTest支持GUI图形界面形式,进入软件安装路径,运行java程序包或shell命令,即可打开图形化界面:
导入DNA比对序列,支持3种比对格式 phylip / fasta / nexus:
选择Analysis菜单,先进行Compute Likelihood scores,然后依次进行AIC、BIC、DT计算,默认参数。计算结束后根据 delta值挑选最优模型,值越小越好。
Darriba D, Taboada GL, Doallo R, Posada D. 2012. jModelTest 2: more models, new heuristics and parallel computing. Nature Methods 9(8), 772.
Guindon S, Gascuel O. 2003. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst Biol. 52: 696-704.
ProtTest 3.4(https://github.com/ddarriba/prottest3) 处理的是基因蛋白序列,与jModelTest类似,ProtTest也是通过 PhyML 对进化树和模型参数进行最大似然估计,然后计算 AIC、BIC 分值或 DT 来寻找最佳模型。
命令行操作示例:
参数的说明同jModelTest,运行结束后,在 prottest.out 对每个统计标准下的模型做汇总,选择delta、-lnL最小的模型即可:
图形化界面运行:
进入程序所在的目录运行程序以启动图形化界面,
导入比对好的基因蛋白序列,常用的是 fasta 和 phylip格式:
选择Analysis菜单,依次进行Compute Likelihood scores和氨基酸频率,然后根据计算结果选择最优进化模型。
Darriba D, Taboada GL, Doallo R, Posada D. ProtTest 3: fast selection of best-fit models of protein evolution. Bioinformatics, 27:1164-1165, 2011.
Guindon S, Gascuel O. 2003. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst Biol. 52: 696-704.
凌恩生物成立于2014年,专注组学技术在科研领域的应用与研究。公司成立以来,技术团队参与的项目成果成功发表在《Nature》《Cell》《PNAS》等国际顶端学术期刊。
秉承“以客户需求为本,为客户创造价值”的服务宗旨;以高品质、高效率的技术服务,用心打造凌恩品牌,助力您的成功。